查看原文
其他

深入解读f-散度和f-GAN训练的相关数学性质

孙裕道 PaperWeekly 2022-07-04


©PaperWeekly 原创 · 作者 | 孙裕道

学校 | 北京邮电大学博士生

研究方向 | GAN图像生成、情绪对抗样本生成




引言

在深度学习中,衡量两个概率密度分布的数学工具就是 散度,不管是训练分类器模型还是训练 都看见到它,所以说了解 散度的相关的数学性质是非常有必要的。在该论文中作者为我们描述了 散度和 训练的一些数学的相关性质,并给出了 散度下界的一个初等推导,它构成了 训练的基础。进一步作者还推导了 散度和 扩展的一些其它性质其中就包括梯度匹配性质。
最重要的是作者还提供了计算各种常见 及其变分下界的详细表达式,强烈推荐这篇论文,最好能跟着作者的思路一步一步推导出来,尤其是我对论文中关于对 泰勒展开式的补充证明更需要值得慢慢花时间消化,因为我发现很多篇论文中都用到了其泰勒展式的二阶项的 信息矩阵。


论文标题:

Properties of f-divergences and f-GAN training


论文链接:

https://arxiv.org/abs/2009.00757




散度族

2.1 定义介绍

定义:给定一个严格凸的二次连续可微函数 ,在 的概率密度函数的 的定义为:

为了简化起见,作者假设分布 关于勒贝格积分是绝对连续的,,并且 都是连续可微的。
在定义函数中添加一个线性函数项那么在散度中只会添加一个常数:比如说如果对于任意的

则对于任意的分布 ,则有:
在通常情况下,我们不关心总体相加偏移,而是将 视为本质上相同的概率分布度量。论文中没有给出该结论相关的数学证明,下面为补充的数学证明。
证明:已知 ,且 ,所以则有:

2.2 性质

确保当分布 时, 确保散度 具有非负性,则 散度满足如下几个数学性质:
  1. 上是线性的。
  2. 对于任意的分布 都有 ,当且仅当 时,取等号。
  3. 确定唯一的
  4. 如果 ,则有
证明:
1. 线性性证明:对于任意 ,两个散度 则有:

如果 是严格凸函数,则 都是严格凸函数,此时 都是有效的 散度。
2. 非负性证明:因为 非负性源于函数 是严格凸的。因为 ,因此则有:

由此可知
3.  唯一确定函数 证明的中心思想是当 时,。考虑 是一个两点集的分布 。给定 ,构造如下两个分布如下所示:

进一步则有公式:

因为当 时,对于所有的  ,有 ,进一步则有 ,又因为 ,所以可得 。当 时, 的分布构造如下:

进一步化简则有:
同样的证明方法可以得出
不同的 散度在分布 在相距很远的时候,度量的差异很大,但是在 时,距离都是 0。考虑一组分布的参数族 。对 进行泰勒展开,则有:

其中 ,并且以下公式时 信息矩阵。

论文中没有给出相应的证明过程,具体的证明过程如下所示:

证明:

为了证明的简便性和可读性,假设 是一维的,则有如下公式:

已知 ,则有:

求解如下导数:

又因为 ,所以则有:

求解如下导数:

因为 ,所以则有:

将求导结果带入原公式,即可得到一维的散度泰勒展开式,与论文的结果一致,证明完毕。

可以很直观的发现,所有的 散度都与附近两个分布之间的散度一致,并且它们都是这个区域中 距离的缩放版本。这可以以非参数形式说明如下公式(此处的证明过程中与参数版本的证明方法一致):

其中 满足 。上面的公式也可以写成:

因此,所有 散度都与附近分布之间的散度的常数因子一致。



变分散度估计

3.1 变分下界
因为 是严格凸函数,所以在该函数图像上的每一点的切线都在该函数图像的下面。对于任意 ,所以则有:

当且仅当 时,取等号。用 代替 代替 ,对于任意连续可微的函数 ,则可以得到:

当且仅当 取等号,此时 。令 ,对任意连续可微函数 ,则有:

当且仅当 取等号,其中则有:
其中 在函数 处都是线性的。
3.2 变分散度估计公式
分布 散度可以通过最大化关于函数 的期望 来估计,其中 可以根据分布 的采样关于 函数的期望来估计。如果将 参数化为一个带参数的神经网络 ν,那么可以通过最大化关于 ν 来近似散度。这并不能计算出准确的散度原因有如下,第一不能保证 位于可由神经网络表示的 νν 函数族中;第二基于梯度的优化可以找到局部而不是全局的最小值;第三需要防止训练过程中模型过拟合。但是我们可以尽可能去优化下界进而能够更好的去估计 散度。
3.3 散度的表达式
作者针对于每一个 散度,作者给出了 的显示表达式。首先是最常见的 散度,具体形式如下:
有时 散度的定义函数为 ,因为定义函数加上一个线性函数 散度不变,针对于广义的 散度,则有如下形式:

定义如下所示:

散度和 散度在公式的表示形式上具有明显的对称性。如果 ,则
的具体的推导以及定义的公式如下所示:
距离的相关定义和对应下界函数如下所示:

距离的相关定义和对应下界函数如下所示:
卡方散度的相关定义和对应下界函数如下所示:

散度的定义和对应的下界函数如下所示:

软化 散度的定义和对应的下界函数如下所示:


变分散度极小化

概括了经典 ,其允许近似最小化任何 散度。 主要是利用 散度从样本数据中去模拟出一个概率模型。 是真实的样本分布,其目标是去最小化:

上的概率密度参数族。假定 表示的是生成器。对于 中隐式的生成器模型,分布 是随机潜变量 确定变换 的结果。
4.1 梯度匹配特性
给定最佳的 ,则 是相等的,其中它们的梯度在此时也是相等的如下所示:

由此可知, 非常接近的一个下界。



低维度的生成器

绝大多数 生成器由噪声源的确定性神经网络组成。一般情况下噪声的维数远低于样本空间,这意味着给定的经过训练的生成器的可能生成器输出集是样本空间中的低维流形。通常假设自然数据也存在于输出空间中的低维流形上,但作者认为这种情况不是一定的(比如 ,生成器的输入维度与输出维度一样)。低维生成器生成高维数据分布会有很多问题:
  • 在数据分布下,生成器的输出集的概率可能为
  • 概率为 时,生成器为自然图像指定的概率密度为
  • 数据分布和生成器之间的 散度是发散的。
  • 模型下自然数据的真实对数似然为
  • 实际上所有 散度的梯度经常为
  • 最优临界点 几乎处处是
  • 的生成器训练的足够好会导致模型崩塌,使得模型生成样本的多样性变差。

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。


更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存